Preços de computadores pessoais

## # A tibble: 5 x 10
##   price speed    hd   ram screen cd    multi premium trend date      
##   <int> <int> <int> <int>  <int> <fct> <fct> <fct>   <int> <date>    
## 1  1499    25    80     4     14 no    no    yes         1 1993-01-01
## 2  1795    33    85     2     14 no    no    yes         1 1993-01-01
## 3  1595    25   170     4     15 no    no    yes         1 1993-01-01
## 4  1849    25   170     8     14 no    no    no          1 1993-01-01
## 5  3295    33   340    16     14 no    no    yes         1 1993-01-01
## [1] 6259   10
## Classes 'tbl_df', 'tbl' and 'data.frame':    6259 obs. of  10 variables:
##  $ price  : int  1499 1795 1595 1849 3295 3695 1720 1995 2225 2575 ...
##  $ speed  : int  25 33 25 25 33 66 25 50 50 50 ...
##  $ hd     : int  80 85 170 170 340 340 170 85 210 210 ...
##  $ ram    : int  4 2 4 8 16 16 4 2 8 4 ...
##  $ screen : int  14 14 15 14 14 14 14 14 14 15 ...
##  $ cd     : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 2 1 1 1 ...
##  $ multi  : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
##  $ premium: Factor w/ 2 levels "no","yes": 2 2 2 1 2 2 2 2 2 2 ...
##  $ trend  : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ date   : Date, format: "1993-01-01" "1993-01-01" ...
##      price          speed              hd              ram        
##  Min.   : 949   Min.   : 25.00   Min.   :  80.0   Min.   : 2.000  
##  1st Qu.:1794   1st Qu.: 33.00   1st Qu.: 214.0   1st Qu.: 4.000  
##  Median :2144   Median : 50.00   Median : 340.0   Median : 8.000  
##  Mean   :2220   Mean   : 52.01   Mean   : 416.6   Mean   : 8.287  
##  3rd Qu.:2595   3rd Qu.: 66.00   3rd Qu.: 528.0   3rd Qu.: 8.000  
##  Max.   :5399   Max.   :100.00   Max.   :2100.0   Max.   :32.000  
##      screen        cd       multi      premium        trend      
##  Min.   :14.00   no :3351   no :5386   no : 612   Min.   : 1.00  
##  1st Qu.:14.00   yes:2908   yes: 873   yes:5647   1st Qu.:10.00  
##  Median :14.00                                    Median :16.00  
##  Mean   :14.61                                    Mean   :15.93  
##  3rd Qu.:15.00                                    3rd Qu.:21.50  
##  Max.   :17.00                                    Max.   :35.00  
##       date           
##  Min.   :1993-01-01  
##  1st Qu.:1993-10-01  
##  Median :1994-04-01  
##  Mean   :1994-03-30  
##  3rd Qu.:1994-09-16  
##  Max.   :1995-11-01

Preços por Ano

## Sumário:
## year(df_comp$date): 1993
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     999    1895    2285    2340    2695    5399 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     949    1778    2118    2196    2590    4799 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1195    1662    1899    2015    2340    3340

Velocidade Processador por Ano

## Sumário:
## year(df_comp$date): 1993
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   33.00   33.00   43.89   66.00   66.00 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   25.00   33.00   50.00   51.91   66.00  100.00 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    33.0    66.0    66.0    70.6   100.0   100.0
## 
## Valor máximo por ano:
## $`1993`
## [1] 909
## 
## $`1994`
## [1] 1053
## 
## $`1995`
## [1] 447
## 
## Frequência por ano:
## year(df_comp$date): 1993
## 
##  25  33  50  66 
## 356 909 421 636 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
## 
##   25   33   50   66   75  100 
##  210 1053  401  945   53  245 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
## 
##  33  50  66  75 100 
##  71 172 447  69 271

HD por Ano

## Sumário:
## year(df_comp$date): 1993
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    80.0   170.0   245.0   288.6   424.0  1370.0 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   100.0   214.0   420.0   425.2   528.0  2100.0 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   210.0   528.0   545.0   680.8   850.0  2100.0
## 
## Valor máximo por ano:
## $`1993`
## [1] 292
## 
## $`1994`
## [1] 397
## 
## $`1995`
## [1] 156
## 
## Frequência por ano:
## year(df_comp$date): 1993
## 
##   80   85  107  120  130  170  210  212  213  214  230  240  245  250  320 
##   10   25  224  131   71  183   45  115   10  215   28   25  102  205    8 
##  330  340  345  405  424  425  426  450  452  500  520  525  527  528  540 
##    4  292   32    5   53    3  143   34   87   25    1    2   26  125   49 
##  545 1000 1060 1100 1200 1370 
##   18    5    2    6    3   10 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
## 
##  100  107  120  125  128  170  200  210  212  214  230  240  245  250  256 
##    6  153   52    4    1   24    5   57  179  322    2   11   27   15    1 
##  260  270  320  340  364  420  424  425  426  428  450  452  470  527  528 
##    1   51    4  397    3  154   66   85  240   34   17    1    1   77  397 
##  530  540  545  720  728  730  810 1000 1080 2100 
##   16   94   13  122   13   36    1  211   12    2 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
## 
##  210  212  214  270  340  364  365  420  425  428  528  540  545  630  720 
##    7   12   19   22   75   15    6   26   15   30  152   81  109    2   36 
##  730  850 1000 1080 1200 1260 1600 2100 
##   45  140  156    2   62    1   16    1

RAM por Ano

## Sumário:
## year(df_comp$date): 1993
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.000   4.000   4.000   6.949   8.000  32.000 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.000   4.000   8.000   8.425   8.000  24.000 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    4.00    8.00    8.00   10.91   16.00   32.00
## 
## Valor máximo por ano:
## $`1993`
## [1] 957
## 
## $`1994`
## [1] 1070
## 
## $`1995`
## [1] 453
## 
## Frequência por ano:
## year(df_comp$date): 1993
## 
##   2   4   8  16  32 
## 230 957 797 334   4 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
## 
##    2    4    8   16   24 
##  164 1039 1070  471  163 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
## 
##   4   8  16  24  32 
## 240 453 191 134  12

Tamanho Tela por Ano

## Sumário:
## year(df_comp$date): 1993
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   14.00   14.00   14.46   15.00   17.00 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    14.0    14.0    14.0    14.6    15.0    17.0 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   14.00   15.00   14.97   15.00   17.00
## 
## Valor máximo por ano:
## $`1993`
## [1] 1581
## 
## $`1994`
## [1] 1700
## 
## $`1995`
## [1] 477
## 
## Frequência por ano:
## year(df_comp$date): 1993
## 
##   14   15   17 
## 1581  576  165 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
## 
##   14   15   17 
## 1700  939  268 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
## 
##  14  15  17 
## 380 477 173

Drive de CDROM por Ano

## Sumário:
## year(df_comp$date): 1993
##   no  yes 
## 1859  463 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##   no  yes 
## 1240 1667 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##  no yes 
## 252 778

Multimídia (Caixa de Som, Placa de Som, etc.) por Ano

## Sumário:
## year(df_comp$date): 1993
##   no  yes 
## 1859  463 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##   no  yes 
## 1240 1667 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##  no yes 
## 252 778

Venda por tipo de empresa por Ano

## Sumário:
## year(df_comp$date): 1993
##   no  yes 
##  210 2112 
## -------------------------------------------------------- 
## year(df_comp$date): 1994
##   no  yes 
##  361 2546 
## -------------------------------------------------------- 
## year(df_comp$date): 1995
##  no yes 
##  41 989
##          no    yes
## 1993 0.0904 0.9096
## 1994 0.1242 0.8758
## 1995 0.0398 0.9602

Análise univariada

Qual é a estrutura dos dados?

Os dados analisados são provenientes do pacote Ecdat do software R (R Core Team, 2019). Eles correspondem às informações de vendas de computadores pessoais que ocorreram entre os períodos de Janeiro de 1993 até Novembro de 1995.

As variáveis disponíveis para as análises são: price: (int) preço em dólares americanos de computadores 486. speed: (int) velocidade do clock em MHz do processador hd: (int) tamanho do Hard Disk (HD) em MB. ram: (int) tamanho da memória de acesso randômico (RAM) em MB screen: (int) tamanho dos monitores de tubo em polegadas. cd: (Factor) presença ou ausência de leitora de CDROM. multi: (Factor) presença ou ausência de kit multimídia (auto falantes, placa de som). premium: (Factor) informações do fabricante dos computadores categorizadas por marca conhecida (yes), como IBM ou COMPAQ, ou não (no). trend: (int) tempo em meses de Janeiro de 1993 até Novembro de 1995. date: (Date) data das vendas dos computadores por anos e meses.

No ano de 1993 o preço médio U$ 2340 sendo que 90,96% foram vendidos por empresas consideradas premium, sendo que a a maioria dos computadores vendidos desse ano tem as seguintes características:

  • Processador de 33MHz;
  • 340MB de espaço em HD;
  • 4MB de memória RAM;
  • Telas de tubo de 14";
  • Poucos computadores possuíam drive de CDROM;
  • A grande maioria não possuía especificações multimídia, provavelmente devido ao seu alto custo.

Para o ano de 1994 o preço médio dos computadores era de U$ 2196, com uma diminuição no preço comparado ao ano anterior. Nesse ano houve uma queda de aproximadamente 3.38% das vendas de computadores por empresas premium. Os computadores desse ano possuíam as seguintes características:

  • Continuam a ser a grande maioria os processadores com 33 MHz. Esse pode ser um dos motivos do menor custo dos computadores no ano de 94;
  • 340MB de espaço em HD, sugerindo outro motivo para a diminuição do valor médio dos computadores;
  • Houve o aumento em 4MB de memória RAM no ano de 1994, totalizando 8MB de RAM;
  • As telas continuam a ser de 14";
  • Houve um aumento no interesse de computadores com drive de CDROM;
  • Para esse ano, houve um aumento no interesse geral de suporte multimídia, porém ainda não esta presente na maioria dos computadores.

Para o ano de 1995, o último ano de estudo e avaliação do perfil de venda dos computadores nos EUA, tem preço médio de U$ 2015. Nesse ano as vendas de computadores por empresas premium aumentou para 96.02%, mostrando um domínio quase completo das vendas. As suas configurações são:

  • Aumento no processador para 66Mhz;
  • 1000MB de espaço em disco, o que representa um grande salto de armazenamento físico;
  • Se mantêm os 8MB de RAM;
  • As telas passam a ser de 15" na maioria dos computadores vendidos;
  • A grande maioria dos computadores vendidos possuía drive de CDROM;
  • O ano de 1995 representa um aumento geral de itens multimídia presentes, fazendo parte da maioria dos computadores.

O ano de 1995 representa uma queda no valor médio dos computadores com aumentos em processamento, espaço de armazenamento e tamanho da tela de tubo. Também, todos os computadores que apresentaram possuir CDROM possuíam também o kit multimídia.

Monitores não têm informação se são coloridos ou de fósforo verde.

Quais são as características mais importantes do dataset?

As características que representam a maior importância são price e ram. Gostaria de encontrar características que possam ser utilizadas para determinar o preço de um computador. Também suspeito que a ram e outras combinações de variáveis possam ser utilizadas para criar um modelo preditivo que ajude a determinar os preço de um computador entre 1993 até 1995. Outros anos não irão ser considerar, pois é preciso explorar nesse momento outras variáveis que o dataset não possui.

Quais são as características mais importantes do dataset?

As características que representam a maior importância são price e ram. Gostaria de encontrar características que possam ser utilizadas para determinar o preço de um computador. Também suspeito que a ram e outras combinações de variáveis possam ser utilizadas para criar um modelo preditivo que ajude a determinar os preços de um computador entre 1993 até 1995. Outros anos não irão ser considerar, pois é preciso explorar nesse momento outras variáveis que o dataset não possui.

Outras características que penso que podem ajudar na investigação?

As variáveis ram, hd, speed e as categóricas podem contribuir para determinar o preço de um computador dentro da época em que os dados foram capturados. Penso que ram com speed possam ser de maior importância na contribuição por serem o que torna um computador em si mais rápidos, porém na época HDs também contribuíam para um alto preço, visto que o armazenamento era escasso.

Foi criado novas variáveis com base no dataset?

Foi criado date que contém a data catalogada do preço de cada computador, ela foi utilizada pois trend que mostra apenas a contagem de meses a partir de janeiro de 1993 não é muito explicativa a humanos, assim ao utilizar datas temos uma visualização informativa e legível.

Das características investigadas, existe alguma distribuição não usual?

Não foi incluso na análise a variável ads (número de vezes que o valor do produto foi listado por cada mês) pois foi considerada redundante para as análises. O ano de 1995 possui apenas dados até novembro, o que acaba não informando as vendas durante a época de festas de dezembro que poderia conter um maior número de vendas.

Após criada a variável auxiliar date os dados possuíam dimensão de 6529 observações e 10 variáveis.

Análise Bivariada

A primeira figura (Figura 1) é um Heatmap com a correlação entre as variáveis onde pudemos observar que, as variáveis hd e ram possuem uma forte correlação positiva, o que pode ser observado na Figura 13, também temos uma boa correlação entre ram e price.

Os mesmos pontos podem ser vistos na Figura 2, onde temos um gráfico da matriz de correlação com dispersão e na diagonal principal o histograma da distribuição de cada variável.

Análise Multivariada

Na Figura 5 o gráfico de dispersão nos ajuda a observar a tendência monetária dos custos de computadores por ano com relação à velocidade de processamento da CPU. Em 1993 os computadores possuíam até 66MHz de processamento enquanto a partir de 1994 foram lançados processador com velocidades de até 100MHz e com um custo menor ou equivalente a processadores do ano anterior e com menor frequência. Em 1995, computadores com processadores de até 100MHz custava um pouco mais que U$ 2000.

Já o gráfico da Figura 6 representa a dispersão entre log10(price) e hd. No ano de 1993 podemos ver que as maiorias dos computadores possuíam HDs entre 80MB até 580MB, sendo que a maioria como foi validado anteriormente possuíam 340MB. Seus preços estavam entre valor de U$ 2000 até U$ 5000 dependendo de suas características. No ano de 1994 essa característica se mantém, com valor entre 80MB até 580MB de espaço de armazenamento, sendo que seus valores se mantiverem entre os U$ 2000 a U$ 5000. Em 1995 os HDs passam a ter um maior tamanho, sendo que os dados não informam vendas de computadores com menos de 180MB e os preços dos computadores despencam, com um custo mediano a baixo de U$ 2000.

A figura 7 apresenta a dispersão de log10(price) pela RAM. A memória RAM normalmente é vinculada a forma \(2^{i}\) com \(i = 1, 2, 3, ..., n\). Nesses dados têm valores entre 2MB até 32MB de memória RAM, sendo que em 1993 os valores estavam entre 4MB a 8MB em computadores com valores entre U$ 2000 a U$ 4000, alguns computadores até U$ 5000 podiam vir com até 16MB, com raros casos de maior quantidade. Já o ano de 1994 não houve grandes alterações, com alguns computadores podendo conter memórias até 24MB e valores inferiores a U$ 4000. Em 1995 os computadores com quantidades de até 32MB de memória custavam pouco mais de U$ 3000.

Podemos ver a tendência dos valores medianos entre os anos de 1993 até 1995 na Figura 8, onde temos que 90% dos computadores custam até pouco mais de U$ 3000 dependendo da época do ano, enquanto em média seu valor fica entre U$ 2000 e U$ 2500. Podemos ver um aumento súbito do valor monetário de computadores no ano de 1995, entre os meses de setembro até outubro, permanecendo constante até novembro, sendo que esta é uma eṕoca nos EUA que se tem uma baixa nos preços devido ao Black Friday ao contrário do ano anterior que houve uma queda dos preços referente ao mesmo período. Podemos pensar que uma possível razão para isso, é que o aumento da procura por computadores devido ao fato de sua popularização e as festividades de final de ano possam ter gerado um aumento na oferta e demanda.

A Figura 9 nos mostra uma tendência onde computador vendidos por marcas premium tem um menor custo comparados a computadores sem marca ou marcas não consideradas premium. Essa tendência e confirmada entre março de 1993 até setembro de 1995, onde vemos computadores com marca sendo comercializados com valores muito acima daqueles sem marca. Empresas premium costumam ter uma produção maior de computadores do que aquelas que não são premium, fazendo computadores terem um custo menor por unidade vendida, por isso se modifica no final de 1995 o que pode significar que o custo de marca esta sendo incluindo no valor desses computadores vendidos.

Na Figura 10, a partir de Março de 1993, podemos observar o aumento da procura do consumidor por computadores que possuíam drive de CD, sendo que esses possuíam valores maiores do que aqueles sem o periférico. Observa-se uma queda nos preços de computadores que não possuem o drive durante a passagem dos anos. Já os computadores que possuíam o drive tiveram uma queda de preço no início de 1995 porém ao final do mesmo ano os valores aumentaram expressivamente.

No primeiro semestre de 1993, os computadores eram comercializados sem kit multimídia, como pode ser observado na Figura 11. A partir de Julho do mesmo ano, começou a venda de computares com kit multimídia. Entretanto, o valor das vendas, embora seja um pouco maior para os computadores que possuíam o kit, não diferenciou muito dos computadores que não possuíam o kit. No final de 1995, nos meses de Agosto até Novembro, observa-se que houve um aumento no preço dos eletrônicos que tanto possuíam ou não o kit, porém os que possuíam o recurso de multimídia apresentavam um custo maior do que os que careciam desse recurso.

Já na figura 12 temos um arranjo de boxplots com as variáveis pelo log10(price). Com relação a velocidade da CPU, podemos ver que a mediana dos preços se encontra com valores a baixo de U$ 3000, independente da velocidade. Observa-se que as únicas diferenças que aparentam ser significativas esta entre a velocidade de 100MHz e a de 25MHz em relação ao preço. O mesmo pode ser observado para a memória RAM, a partir do momento que temos um aumento na quantidade de memória, temos um aumento no preço do computador.

As demais variáveis não parece ter uma influência significativa no preço final do produto.

A Figura 13 é outro gráfico de boxplot com relação entre o log10(price) e hd. Nele podemos ver pouca diferença do preço de computadores com armazenamento interno entre 85MB a 320MB, sendo que computadores com 80MB de armazenamento tem um custo bem próximo U$ 1000. Nota-se que para alguns computadores computadores com HDs 525MB a 1370MB apresentaram os maiores valores monetários em 1993. Já em 1994 poucos computadores tiveram preços acima de U$ 4000 com exceção de alguns computadores que possuíam HD de 728MB e 1000MB.

Em 1995 computadores que possuíam HDs com tamanhos de 1600MB e 2100MB são os que apresentaram o maior valor monetário.

Pela Figura 14 podemos observar que a medida que o tamanho do HD aumenta a quantidade de memória RAM também tende a aumentar. Com exceção do HD de 2100MB que possuía 16MB de RAM.

Pela Figura 15 observamos que as marcas premium vendiam computadores com kit multimídia e drive de CD com maior frequência e preços menores que aqueles sem marca premium. Observa-se também que computadores que não possuíam drives de CD não eram vendidos com kit multimídia.

Modelo de regressão linear

## # A tibble: 6 x 8
##   price speed    hd   ram screen cd_dummy multi_dummy premium_dummy
##   <int> <int> <int> <int>  <int>    <dbl>       <dbl>         <dbl>
## 1  1499    25    80     4     14        0           0             1
## 2  1795    33    85     2     14        0           0             1
## 3  1595    25   170     4     15        0           0             1
## 4  1849    25   170     8     14        0           0             0
## 5  3295    33   340    16     14        0           0             1
## 6  3695    66   340    16     14        0           0             1
## 
## Calls:
## m0: lm(formula = log(price) ~ speed, data = dados)
## m1: lm(formula = log(price) ~ speed + ram, data = dados)
## m2: lm(formula = log(price) ~ speed + ram + hd, data = dados)
## m3: lm(formula = log(price) ~ speed + ram + hd + screen, data = dados)
## m4: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy, 
##     data = dados)
## m5: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy + 
##     multi_dummy, data = dados)
## m6: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy + 
##     multi_dummy + premium_dummy, data = dados)
## 
## ============================================================================================================
##                      m0           m1           m2           m3           m4           m5           m6       
## ------------------------------------------------------------------------------------------------------------
##   (Intercept)       7.475***     7.341***     7.344***     6.695***     6.694***     6.696***     6.861***  
##                    (0.008)      (0.007)      (0.007)      (0.039)      (0.039)      (0.039)      (0.038)    
##   speed             0.004***     0.002***     0.003***     0.002***     0.003***     0.003***     0.003***  
##                    (0.000)      (0.000)      (0.000)      (0.000)      (0.000)      (0.000)      (0.000)    
##   ram                            0.027***     0.035***     0.034***     0.034***     0.034***     0.035***  
##                                 (0.000)      (0.001)      (0.001)      (0.001)      (0.001)      (0.001)    
##   hd                                         -0.000***    -0.000***    -0.000***    -0.000***    -0.000***  
##                                              (0.000)      (0.000)      (0.000)      (0.000)      (0.000)    
##   screen                                                   0.046***     0.046***     0.046***     0.044***  
##                                                           (0.003)      (0.003)      (0.003)      (0.003)    
##   cd_dummy                                                             -0.029***    -0.027***    -0.015*    
##                                                                        (0.006)      (0.006)      (0.006)    
##   multi_dummy                                                                       -0.005        0.004     
##                                                                                     (0.008)      (0.008)    
##   premium_dummy                                                                                  -0.177***  
##                                                                                                  (0.008)    
## ------------------------------------------------------------------------------------------------------------
##   R-squared         0.096        0.415        0.436        0.460        0.462        0.462        0.501     
##   N              6259         6259         6259         6259         6259         6259         6259         
## ============================================================================================================
##   Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05

Para a análise foram criadas variáveis dummys para as variáveis categóricas. Na seleção de variáveis explicativas e de modelo foi utilizado o método foward, onde é adicionada uma variável por vez e analisada se ela contribui significativamente para o modelo. Será adotado o nível de confiança de 95% para todos os testes de normalidade e significância das variáveis explicativas. Para o teste de significância dos coeficientes do modelo a hipótese nula (H0) representa que o coeficiente analisado é igual a zero e a hipótese alternativa (Ha) representa que o coeficiente analisado difere de zero, caso o p-valor do teste seja menor que 5% de significância será rejeitada a hipótese nula. Na tabela acima, observa-se que no modelo m6 a variável correspondente ao kit multimídia não foi significativa e portanto será removida da análise.

## 
## Calls:
## m0: lm(formula = log(price) ~ speed, data = dados)
## m1: lm(formula = log(price) ~ speed + ram, data = dados)
## m2: lm(formula = log(price) ~ speed + ram + hd, data = dados)
## m3: lm(formula = log(price) ~ speed + ram + hd + screen, data = dados)
## m4: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy, 
##     data = dados)
## m5: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy + 
##     multi_dummy, data = dados)
## m6: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy + 
##     multi_dummy + premium_dummy, data = dados)
## m7: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy + 
##     premium_dummy, data = dados)
## 
## =========================================================================================================================
##                      m0           m1           m2           m3           m4           m5           m6           m7       
## -------------------------------------------------------------------------------------------------------------------------
##   (Intercept)       7.475***     7.341***     7.344***     6.695***     6.694***     6.696***     6.861***     6.862***  
##                    (0.008)      (0.007)      (0.007)      (0.039)      (0.039)      (0.039)      (0.038)      (0.038)    
##   speed             0.004***     0.002***     0.003***     0.002***     0.003***     0.003***     0.003***     0.003***  
##                    (0.000)      (0.000)      (0.000)      (0.000)      (0.000)      (0.000)      (0.000)      (0.000)    
##   ram                            0.027***     0.035***     0.034***     0.034***     0.034***     0.035***     0.035***  
##                                 (0.000)      (0.001)      (0.001)      (0.001)      (0.001)      (0.001)      (0.001)    
##   hd                                         -0.000***    -0.000***    -0.000***    -0.000***    -0.000***    -0.000***  
##                                              (0.000)      (0.000)      (0.000)      (0.000)      (0.000)      (0.000)    
##   screen                                                   0.046***     0.046***     0.046***     0.044***     0.044***  
##                                                           (0.003)      (0.003)      (0.003)      (0.003)      (0.003)    
##   cd_dummy                                                             -0.029***    -0.027***    -0.015*      -0.013*    
##                                                                        (0.006)      (0.006)      (0.006)      (0.005)    
##   multi_dummy                                                                       -0.005        0.004                  
##                                                                                     (0.008)      (0.008)                 
##   premium_dummy                                                                                  -0.177***    -0.176***  
##                                                                                                  (0.008)      (0.008)    
## -------------------------------------------------------------------------------------------------------------------------
##   R-squared         0.096        0.415        0.436        0.460        0.462        0.462        0.501        0.501     
##   N              6259         6259         6259         6259         6259         6259         6259         6259         
## =========================================================================================================================
##   Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  rstudent(m7)
## D = 0.022975, p-value = 0.0027
## alternative hypothesis: two-sided

Duas pressuposições devem ser atendidas para que haja um ajuste satisfatótio do modelo linear, a normalidade dos resíduos e homogeneidade das variâncias residuais visto que os erros devem seguir uma distribuição normal com média zero e variância constante. As hipóteses testadas para a normalidade são: Hipotese nula (H0): Os resíduos tem distribuição normal versus Hipotese alternativa (Ha): Os resíduos não tem distribuição normal. Após a remoção da variável de kit multimídia foi ajustado um novo modelo e feita o teste de normalidade dos resíduos que resultou o p-valor de 0.0027 (p-valor < 0,05), pode-se concluir que rejeita-se a hipóteses nula ao nível de significância de 5%, portanto os resíduos não seguem uma distribuição normal, violando assim o primeiro pressuposto do modelo linear simples. Para corrigir a normalidade, uma alternativa é a remoção de outliers. Para tal, foi escolhido que observações com resíduos acima fora do intervalo \([-3, 3]\) devem ser removidos da análise.

## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  rstudent(m8)
## D = 0.010795, p-value = 0.4658
## alternative hypothesis: two-sided
## 
## Calls:
## m8: lm(formula = log(price) ~ speed + ram + hd + screen + cd_dummy + 
##     premium_dummy, data = dados)
## 
## ==============================
##   (Intercept)       6.804***  
##                    (0.036)    
##   speed             0.003***  
##                    (0.000)    
##   ram               0.038***  
##                    (0.001)    
##   hd               -0.000***  
##                    (0.000)    
##   screen            0.048***  
##                    (0.002)    
##   cd_dummy          0.003     
##                    (0.005)    
##   premium_dummy    -0.181***  
##                    (0.008)    
## ------------------------------
##   R-squared         0.544     
##   N              6195         
## ==============================
##   Significance:   
##                 *** = p < 0.001;   
##                 ** = p < 0.01;   
##                 * = p < 0.05

Após a remoção dos outliers foi feito um novo modelo com os novos dados. Observa-se que a variável cd é não significativa (p-valor > 0,05) e portanto deve ser retirada da análise.

## 
## Calls:
## m9: lm(formula = log(price) ~ speed + ram + hd + screen + premium_dummy, 
##     data = dados)
## 
## ==============================
##   (Intercept)       6.803***  
##                    (0.036)    
##   speed             0.003***  
##                    (0.000)    
##   ram               0.038***  
##                    (0.001)    
##   hd               -0.000***  
##                    (0.000)    
##   screen            0.048***  
##                    (0.002)    
##   premium_dummy    -0.180***  
##                    (0.007)    
## ------------------------------
##   R-squared         0.544     
##   N              6195         
## ==============================
##   Significance:   
##                 *** = p < 0.001;   
##                 ** = p < 0.01;   
##                 * = p < 0.05
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  rstudent(m9)
## D = 0.011308, p-value = 0.4066
## alternative hypothesis: two-sided

Após a remoção da variável cd, foi feito um novo modelo em que todos os coeficientes são significativos (p-valor < 0,05). Pela análise do coeficiente de determinação (\(R^2\)) observamos que as variáveis independentes explicam 54,4% da variável dependente, o que não é muito e indica que pode haver alguma variável explicativa significativa que não foi observada.

##   (Intercept)         speed           ram            hd        screen 
##        6.8033        0.0028        0.0382       -0.0003        0.0482 
## premium_dummy 
##       -0.1802

A interpretação do modelo segue como: para uma unidade de MHz em processamento, o preço médio final do computador aumenta em U$ 0,0028. Para uma unidade de aumento em MB de memória RAM, o valor final médio do computador aumenta em U$ 0,0382. Para uma unidade de MB em HD o preço médio decai em U$ -0,0003. Para uma unidade de polegadas do monitor de tudo, o preço médio do produto aumenta em U$ 0,0482 e, por fim se a marca for premium o preço decai em U$ 0,1802, em média.

Para a segunda pressuposição da análise de modelo linear simples é necessário verificar a homogeneidade da variância residual. Os erros devem estar centrados em zero e estarem distribuídos de forma aleatória e homogênea quando for plotado os valores ajustados do modelo selecionado versus os resíduos do modelo, como pode ser observado na Figura 16

A normalidade dos resíduos pode ser avaliada tanto graficamente, pelo gráfico envelope da distribuição normal acima (qqplot com intervalo de confiança), quanto pelo teste de Kruskal-Wallis. Segundo o teste, não rejeitamos a hipótese nula e ao nível de significância de 5% podemos concluir que os resíduos seguem uma distribuição normal (p-valor de 0.4066).

Na Figura 18 observa-se os valores observados da variável dependente versus os valores preditos pelo modelo proposto, sugerindo um ajuste satisfatório do mesmo.

Você criou algum modelo com os seus dados? Discuta as limitações e vantagens do seu modelo.

Foram criados no total nove modelos para a análise dos dados. Apesar de que as variáveis HD e RAM apresentaram forte correlação, indicando assim uma possível multicolinearidade entre essas duas variáveis. Foi estimado o Fator de Inflação da Variância (VIF) regredido a variável HD em relação as demais variáveis explicativas, observou-se um VIF < 10, não representando assim, a príncipio, um forte problema de multicolinearidade. Optou-se então por manter ambas as variáveis no modelo devido a pouca explicação que elas tem em relação a variável dependente (Referência: Multicolinearidade).

Na análise de normalidade dos resíduos, foi optado por escolher um modelo em que, por mais que os resíduos ultrapassem os limites de \([-3, 3]\), eles seguem uma distribuição de normalidade. Com a continuidade de limpeza de outliers essa pressuposição seria violada e assim não seria possível ajustar algum modelo satisfatório aos dados. O motivo disso pode ser devido ao fato de que a variável dependente não segue uma distribuição normal.

Gráficos finais e sumário

Primeiro gráfico escolhido: Distribuição de densidade do preço de computadores 486, correspondente aos anos de 1993 até 1995

Apesar de ter transformado a variável resposta em logaritmo, ainda assim ela não apresenta uma distribuição normal (p-valor < 0,05) optou-se por fazer uma análise de modelo linear simples pois graficamente a distribuição do logaritmo do preço adquire aproximadamente uma forma simétrica de sino.

Segundo gráfico escolhido: Boxplot de ausência ou não de CD por preço, agrupado por kit multimídia

A figura acima foi documentada na análise multivariada demonstrando a não significância estatística das variáveis cd e multi como explicativas do preço dos computadores 486, como foi comprovado na análise de modelos.

Terceiro gráfico escolhido: Equação do modelo proposto

Apesar do efeito da multicolinearidade e da falta de distribuição de normalidade da variável resposta, a figura acima demonstra que o modelo proposto se ajusta satisfatoriamente aos dados.

Reflexões

O dataset de computadores contém 6259 observações de 10 variáveis, dessas não existem valores nulos e os dados representam computadores entre os anos de 1993 até 1995. Inicialmente, foram feitas análises tabulares, de sumário e gráficas para analisar o perfil do consumidor nos anos correspondentes, assim como avaliar o comportamento das variáveis.

Na análise bidimensional, verificou-se uma alta correlação entre as variáveis hd e ram de 80%, e correlações moderadas para as variáveis price e ram e hd com trend, ambas com 60%. Na análise multivariada podemos ver as tendências de comportamento entre as variáveis com a variável dependente preço, tanto speed, hd, ram e screen mostraram tendências positivas no aumento dos preços dos computadores, já as variáveis multi e cd não apresentaram tendência nenhuma. O preço dos computadores apresenta um decrescimento com o passar dos anos, com exceção do final de 1995 onde o valor do produto tem um aumento súbito, razão não encontrada nos dados. Após transformar a variável price em logaritmo e torná-la o mais o mais próximo de uma distribuição norma, obteve-se 54.4% da variância do modelo, motivo para tal, é que talvez haja variáveis explicativas não observadas e que influenciem na variável resposta.

Alguma das limitações encontradas nos dados, é que em primeiro ponto, estamos trabalhando com dados de quase 30 anos atrás. Esses dados não contam com ajustes de inflação, juros e outros ajustes monetários. Existe também um salto de desempenho e configurações entre esse tempo não catalogado. Também temos de considerar que para os dias atuais, alguns dos hardwares começaram a se tornar obsoletos, onde podemos observar que no tempo atual HDs estão sendo alterados por SSDs e a troca de telas de tubo por monitor LCD e outras tecnologias, demonstrando que o perfil do consumidor se alterou com o tempo, sendo que entre 1993 a 1995 computadores ainda eram considerados artigo de luxo, refletindo que o presente estudo é transversal. Embora atualmente seja acessível ter um computador, o hardware evolui de tal maneira que apenas os itens citados no banco de dados não são suficientes para estimar nos dias atuais o preço final de um computador.